DocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML
نویسندگان
چکیده
Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt du stockage dans une base XML est de faciliter la recherche de documents pertinents grâce au langage XQuery. La catégorisation implémente un nouvel algorithme hybride dit CKNN et qui combine les algorithmes de centroïdes et celui des k plus proches voisins (k-NN). En amont de cette phase, un modèle de représentation des documents doit d’abord être constitué. Ceci a amené au développement d’une nouvelle approche (CBA) pour la sélection de termes caractéristiques, comprenant la pondération des termes puis le test de dépendance de χ pour filtrer ces termes. En se basant sur ces poids qui quantifient les liens entre les documents et les catégories, la qualité de classement peut être améliorée. Aussi, deux nouvelles méthodes de calcul de score des catégories (CBW et IBW) ont été proposées. Ces méthodes sont intégrées à l’algorithme kNN. Les tests préliminaires montrent qu’une recherche partielle dans la base d’apprentissage aboutit aux mêmes performances que la recherche totale. Cet article décrit globalement le composant DocCat et décrit son application à la gestion de dépêches boursières.
منابع مشابه
Enrichissement sémantique de méta-modèles XML et UML pour une transformation bidirectionnelle de modèles
RÉSUMÉ. XML est devenu depuis la fin des années 90 le standard pour échanger et envoyer de l’information sur Internet. Le W3C a ensuite préconisé l’utilisation de XML Schema pour définir la structure des documents XML. A ce jour, la modélisation graphique de modèles XML Schema n’est pas standardisée. L’introduction d’un formalisme de définition de modèles est un moyen de rendre la modélisation ...
متن کاملSélection par entropie de descripteurs textuels pour la catégorisation de documents XML
Dans le contexte de la catégorisation de documents, la sélection des descripteurs est une étape de pré-traitement importante qui permet non seulement de réduire la taille de l’index, mais aussi d’améliorer les performances des classifieurs. Parmi les approches utilisées pour construire un sous-ensemble de l’index, on peut distinguer d’une part, les méthodes de réduction de dimensions qui génère...
متن کاملUn modèle d'espace vectoriel de concepts pour noyaux sémantiques
Résumé. Les noyaux ont été largement utilisés pour le traitement de données textuelles comme mesure de similarité pour des algorithmes tels que les Séparateurs à Vaste Marge (SVM). Le modèle de l’espace vectoriel (VSM) a été amplement utilisé pour la représentation spatiale des documents. Cependant, le VSM est une représentation purement statistique. Dans ce papier, nous présentons un modèle d’...
متن کاملModélisation Sémantique de l'Utilisateur
Résumé. Notre approche « sémantique de l’utilisabilité », basée sur la catégorisation, correspond à un mode de représentation des connaissances, sous la forme d’un treillis de Galois qui permet de modéliser et simuler les procédures utilisateurs sur un dispositif technique. Cette approche, qui diffère de celles qu’on trouve avec SOAR ou ACT, associe les actions et les procédures aux catégories ...
متن کاملStructuration sémantique des documents XML : Expérimentations et évaluation
RÉSUMÉ. La norme XML permet la représentation d¶XQ document selon un découpage logique qui ne reflète généralement pas la sémantique de son contenu. Il serait donc intéressant de compléter la structure logique des documents XML par une structure VpPDQWLTXH /¶REMHW GH FHW DUWLFOH HVW DORUV G¶pYDOXHU O¶DSSURFKH G¶H[WUDFWLRQ GH VWUXFWXUHV sémantiques pour les documents XML que nous effectuons sur ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Ingénierie des Systèmes d'Information
دوره 8 شماره
صفحات -
تاریخ انتشار 2003